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面向 数据 流 的 多 任务 多 核 在 线 学 习 算法 
裴 乐 , 刘 群 


(重庆 邮电 大 学 计算 智能 重庆 市 重点 实验 室 , 重庆 400065) 


摘 要 : 多 任务 多 核 学 习 已 逐渐 成 为 在 线 学 习 算 法 研究 的 热点 。 对 于 数据 流 的 处 理 ， 现 有 的 在 线 学 习 算法 在 准确 性 上 
有 一 定 的 欠缺 ， 因 此 提出 一 种 新 的 多 任务 多 核 在 线 学 习 模 型 用 于 提高 数据 流 预测 的 准确 性 。 在 保持 多 任务 多 核 学 习 的 
基础 上 ， 将 其 扩展 到 在 线 学 习 中 ， 从 而 得 到 一 个 新 的 在 线 学 习 算 法 ; 同时 为 输入 数据 保持 一 定 大 小 的 数据 窗口 ， 用 较 
小 空间 换取 数据 的 完整 性 。 实 验 部 分 对 核 函 数 的 选取 以 及 训练 样本 集 的 大 小 进行 了 较为 详细 的 分 析 ， 通 过 对 UCI 数据 
和 实际 的 机 场 客 流量 数据 进行 分 析 ， 很 好 地 保障 了 流 数据 处 理 的 准确 性 及 实时 性 ， 有 一 定 的 实际 应 用 价值 。 
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Online learning algorithm based on multi-task and multi-kernel for stream data 
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(Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts & Telecommunications, Chongqing 
400065, China) 


Abstract: Multi-task and multi-kernel learning has gradually become the research focus of online learning algorithms. For the 
prediction of data stream, some online learning algorithms have some shortcomings in accuracy. Therefore, this paper proposes 
anew multi-task and multi-kernel online learning model to improve the accuracy of data stream prediction. Based on the multi- 
task multiple-kernel learning, we extends the model to online learning, so as to get a new online learning algorithm, while 
maintaining a certain size of the input data window for the integrity of the data with less space. In the experimental part, the 
selection of kernel function and the size of training sample set are analyzed in detail. Through the analysis of UCI data and 


actual airport passenger flow data, the algorithm proposed in this paper can ensure the accuracy and real-time of stream data 


processing, and has certain applicable value. 


Key Words: multi-task and multi-kernel learning; online learning; streaming data; SVM 


0 ”引言 分 布 模型 ， 都 假设 数据 几乎 线性 可 分 ， 可 这 个 假设 不 总 是 成 并 
的 ， 因 为 数据 经 常 是 非 线性 分 布 在 原始 输入 空间 中 ， 且 由 于 数 

对 于 许多 大 数据 应 用 领域 ， 如 金融 时 间 序 列 预测 、 自 然 语 。” 据 采 和 集 主观 偏差 等 因素 使 得 数据 很 难 是 完美 的 、 符 合 预 设 的 线 
言 处 理 、 网 络 流量 控制 等 ， 这 些 领 域 中 的 数据 都 是 实时 产生 、 5， 因此 进一步 研究 非 线 性 模型 是 必 不 可 少 的 。 为 了 解决 
动态 增加 的 ， 只 要 数据 源 一 直 处 于 活动 状态 ， 可 以 认为 数据 会 ” 在 线 学 习 中 数据 非 线 性 可 分 的 问题 ， 在 线 多 任务 学 习 模 型 是 
无 限制 的 增加 下 去 。 由 于 数据 比较 多 ， 基 本 上 无 法 全 部 存储 ， 前 主要 研究 的 一 个 方 
因此 需要 在 线 学 习 员 模型 进行 实时 处 理 。 在 围绕 流 数 据 处 理 这 在 线 多 任务 学 习 模型 骨 在 同时 使 用 共享 信息 学 习 多 个 相关 
一 需求 展开 的 研究 中 ， 在 线 机 器 学 习 算 法 采用 数据 流 直接 处 怪 王 务 ， 这 样 每 个 任务 都 可 以 从 学 习 所 有 任务 中 获 益 。 例 如 文献 
的 模式 ， 每 次 迭代 处 理 一 个 随机 流 数据 ， 学 习 变 量 的 迭代 更 新 [6,7] 采 用 混合 范 数 的 正则 化 来 为 每 一 个 任务 学 习 其 权重 ， 这 种 
只 经 过 简单 的 计算 ,从 而 在 实时 性 和 准确 率 之 间 取 得 一 个 平衡 ， 方式 既 考 虑 了 任务 间 的 相关 性 ， 又 在 权重 的 计算 方式 中 实现 了 
是 解决 该 问题 很 有 前 途 的 方案 口 。 任务 自身 和 不 同 任务 间 的 稀 朴 性 。 但 其 在 训练 样本 较 少 的 情况 

经 典 的 在 线 学 习 算 法 有 passive aggressive(PA) 方 法 B]、 感 知 下 很 难 快速 地 收敛 并 训练 出 相应 的 模型 。 为 了 解决 收敛 性 的 问 
器 算法 由 和 基于 置信 度 confidence-weighted(CW) 6 方法 ， 然 而 题 ，Yang 图 等 人 提出 了 另外 一 个 简单 的 信息 共享 策略 ， 就 是 让 
不 管 是 PA 的 超 平面 模型 还 是 由 之 衍生 的 基于 置信 度 的 超 平面 。 所 有 的 任务 共享 一 个 相同 的 内 核 函 数 ， 这 种 将 特征 数据 通过 核 
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函数 的 方法 映射 到 另 一 个 特征 空间 中 的 方法 ， 


可 以 避免 对 数据 


五 


五 


本 身 进 行 复杂 的 运算 ， 同 时 采用 核 组 合 的 方法 可 以 更 好 地 得 到 


数据 的 特征 。 但 是 该 方法 存在 的 最 大 问题 就 是 需要 进行 核 函数 


的 选择 ,不 同 的 核 函数 选择 方式 对 于 结果 的 影响 是 十 分 巨大 的 。 


离线 学 习 方法 中 的 多 核 学 习 模型 是 通过 线性 或 非 线性 组 合 


环境 下 的 多 任务 多 核 在 线 学 习 算法 。 


于 当前 数据 产生 规律 的 组 合 核 函数 ， 


几 L 个 预先 选 定 的 候选 核 函 数 来 寻求 一 个 适当 的 核 函数 ， 这 样 可 
以 避免 验证 不 同 内 核 的 选择 。 基 于 以 上 分 析 ， 本 文 研究 数据 流 


将 多 核 方法 应 用 于 在 线 多 


任务 学 习 框 架 中 ， 通 过 在 线 学 习 以 迭 代 的 方式 确定 一 个 最 适合 


避免 直接 通过 数据 样本 分 


析 对 核 学 习 器 的 更 新 ， 使 得 计算 方式 更 为 简单 ， 同 时 发 挥 了 核 
方法 收敛 率 高 的 优点 和 多 任务 联合 学 习 的 优点 ， 使 得 数据 流 的 
处 理 更 为 方便 。 本 文 的 贡献 主要 有 2 点 : 一 是 将 成 熟 的 多 任务 


多 核 学 习 框 架 扩 展 到 在 线 学 习 中 ， 形 成 一 个 新 的 算法 ， 该 算法 
以 更 好 地 处 理 流 数据 ;二 是 为 新 产生 的 数据 保持 一 个 数据 窗 


， 在 无 法 及 时 处 理 时 先 保存 起 来 ， 


1 ”多 任务 多 核 学 习 算法 


以 保证 数据 的 完整 性 。 


假设 有 T 个 任务 ,它们 的 数据 来 自 于 同一 个 空间 
Xx7XeR,7sR， 这 工 个 任务 各 自 拥 有 不 同 的 数据 点 


Ki Pen) Kr Pir ) ar ， 其 中 .eX,yi. EY， nL 中 是 第 t 个 


任务 的 数据 总 量 。 对 于 第 t 个 任务 ， 
£ (x) =W D(x)+b, 


它 的 决策 函数 为 
,Vt e{l,..,T)} (1) 


其 中 : 4b 是 偏 置 项 ，@(x) 是 将 映射 后 的 特征 向 量 ， 系 数 
Ww Be Wi Wa Wm m=1,2,.…,M ) 是 第 t 个 任务 所 对 应 的 所 有 
核 系数 WwW 的 集合 ， 并 且 w, 是 中 每 个 任务 所 对 应 核 函 数 的 系数 ， 


其 中 Hs 是 定义 在 再 生 核 希 尔 伯 特 空间 (reproducing kernel 


hilbert space，RKHS) 中 的 核 函 数 ，Ho=0,.k,,， 其 中 
sm 三 1…,M 是 预先 设 定 的 核 函数 。 


多 任务 多 核 的 目标 就 是 通过 最 


` 化 经 验 风险 以 及 权重 的 正 


则 化 项 来 为 每 一 个 任务 在 有 约束 的 条 件 下 学 习 一 个 决策 函数 ， 


该 约束 是 所 有 的 任务 需 共 享 一 个 共同 的 稀疏 核 表示 。 因 此 ， 需 
要 建立 一 个 学 习 算 法 能 够 为 每 一 个 任务 建立 一 个 函数 。 为 了 实 
现 这 个 目标 ， 本 文 将 问题 转换 为 一 个 正则 化 优化 问题 : 


BDC:-Z(F (x0), ys) + OW) 0O) 


其 中 : ZC,),yi) 是 损失 函数 ， 用 于 描述 数据 与 模型 的 契合 


程度 ， 也 就 是 训练 集 上 的 误差 ，C 是 控制 模型 复杂 度 与 损失 逢 


罚 比 重 的 参数 ，Q 用 于 表示 不 同 任务 间 的 关系 ， 是 一 个 包含 所 


有 决策 系数 w, 的 正则 化 项 , 不 难看 
CO) 为 工 个 独立 学 习 问 题 。 


2 ， 多 任务 多 核 在 线 学 习 模 型 


2.1 算法 描述 


上 ， 如 果 没 有 @ 约束 ， 则 式 


多 任务 多 核算 法 本 质 上 来 说 是 


NY 


个 多 目标 优化 问题 ， 借 鉴 


目标 优化 的 求解 方法 ， 本 文通 过 获得 算法 的 Pareto 最 优 解 ， 
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用 标量 化 的 方法 来 实现 该 多 任务 多 核 问题 ， 也 就 是 通过 优化 


标 函 数 的 不 同 最 优 组 合 ， 来 找到 对 应 问题 的 最 优 解 。 因 此 问 


题 


(可 看 做 是 一 个 在 多 目标 优化 中 的 只 有 一 个 特定 解 的 Pareto 


Front 外 问题 ， 使 用 参数 和 4 来 标量 化 问题 (2)， 即 优化 问题 可 重 
为 


nn 


写 


min DCF) ) A) 6) 


姑 此 ,可 以 通过 实现 最 优化 问题 (3) 来 解决 问题 (2)。 本 文 
有 以 下 一 些 约定 ， 罗 的 取 值 范围 为 入 e(l， 太 ) ， 其 中 加 是 预 
给 定 的 。 


会 


先 


正则 化 项 @ 的 基本 模型 "0 是 Q= 汪 如 a ,这 里 的 “ 志 


模型 权重 系数 。 本 文 使 用 的 信息 共享 策略 是 学 习 每 个 任务 的 
有 特征 并 且 学 习 所 有 任务 的 共同 特征 ， 因 此 模型 权重 除了 每 
任务 固有 的 权重 Wi 外， 还 有 一 个 包含 所 有 任务 共同 特征 的 
系数 怠 , 所 以 在 讨论 权重 的 正则 化 项 O 时 需要 同时 考虑 这 2 
权重 系数 。Q 存在 的 意义 就 是 让 各 个 任务 间 的 差别 尽 可 能 的 
使 得 模型 可 以 更 好 地 进行 预测 ， 因 此 就 需要 在 公共 特征 的 基 


| 


外 


上 再 考虑 每 个 任务 的 固有 特征 , 根据 文献 [9] 的 理论 ，Q 表示 如 
#3 
( ) th (4) 
Ow yj)= 一 十 一 一 一 
1 玫 2 0, 


基于 数据 流 的 多 任务 多 核 在 线 学 习 算 法 ， 与 批量 算法 最 
的 不 同 之 处 在 于 以 下 两 点 : a) 数 据 不 断 产生 ， 无 法 将 所 有 的 
据 全 部 保存 再 进行 处 理 ，b) 训 练 模型 需要 根据 新 到 来 的 数据 
断 更 新 ， 以 达到 更 好 的 预测 结果 。 基 于 这 两 点 ， 本 文采 取 以 
两 种 方法 依次 进行 解决 。 
2.2 引入 输入 数据 窗口 概念 

在 已 有 的 流 数 据 处 理 算法 中 ， 大 部 分 算法 都 是 对 新 产生 
数据 逐个 进行 处 理 ， 这 就 要 求 算 法 的 实时 处 理 能 力 很 强 ， 如 
算法 的 数据 流 处 理 能 力 不 能 满足 实时 性 要 求 ， 那 么 部 分 数据 


大 
数 
不 
下 


的 


四 
人 丰 


会 


因为 不 能 及 时 处 理 而 丢失 。 为 了 保证 数据 的 完整 性 ， 本 文 使 用 


一 定 大 小 的 空间 来 换取 数据 的 完整 性 。 具 体 而 言 ， 则 是 算法 
持 一 个 固定 大 小 的 输入 数据 窗口 ， 每 个 窗口 可 保存 一 个 数据 
本 ， 在 新 数据 不 断 产生 时 ， 将 无 法 及 时 处 理 的 新 样本 数据 保 
到 该 窗口 中 ， 以 免 因为 未 及 时 处 理 而 丢失 数据 ， 并 且 一 定 程 
上 降低 了 对 算法 实时 性 能 的 要 求 。 对 于 本 文 所 使 用 的 基本 模 
即 SVM 算法 来 说 ， 输 入 样本 数 是 一 个 或 多 个 不 会 影响 算法 
整体 运行 速度 ， 因 此 保持 一 个 输入 数据 窗口 是 很 有 必要 的 ， 
文通 过 实验 证 明 该 窗口 数 为 3 个 时 效果 可 以 达到 最 优 。 

2.3 ”模型 更 新 策略 
对 于 模型 更 新 问题 ， 基 于 流 数据 无 限 产生 的 特点 ， 每 次 


保 
样 
存 
度 
型 
的 
本 


预 


测 错 误 都 会 增加 一 个 新 的 支持 向 量 ， 这 样 看 来 支持 向 量 的 数 
没有 上 界 的 , 直接 计算 整个 数据 集 的 核 矩阵 民 在 计算 资源 上 
不 现实 。 因 此 本 文通 过 给 定 一 个 支持 向 量 的 最 大 上 限 来 解决 


该 
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问题 ， 这 是 在 牺牲 一 定 的 准确 率 基础 上 实现 的 ， 后 面 的 实验 中 
详细 讨论 了 该 最 大 数目 设置 对 于 预测 结果 的 影响 。 对 于 SVM 来 
说 ， 算 法 需要 保持 一 个 国定 大 小 的 训练 样本 集 来 进行 核 矩 阵 的 
计算 ， 引 入 在 线 学 习 技 术 后 ， 该 样本 集中 的 数据 则 是 需要 保存 
的 支持 向 量 的 数据 ， 因 此 必须 有 一 个 策略 对 训练 样本 集中 的 数 
据 样本 进行 更 新 。 

本 文 借鉴 操作 系统 中 的 内 存 页 面 的 调度 算法 00， 采 用 先进 
先 出 (first in first out, FIFO) 策 略 对 数据 样本 进行 更 新 ， 对 于 数据 
流 ， 其 数据 生成 规律 有 可 能 随时 间 变 化 而 变化 ， 因 此 替换 存在 
时 间 最 长 样本 的 FIFO 策略 是 合理 的 。 根据 FIFO 策略 ， 对 训练 
样本 集 的 更 新 如 下 :每 次 把 新 加 入 的 样本 放 在 最 下 行 和 最 右 列 ， 
然后 去 掉 第 1 行 和 第 1 列 即 可 完成 训练 样本 集 的 更 新 02。 这 种 
限制 工作 集 大 小 的 更 新 策略 有 一 定 的 局 限 性 ， 但 在 有 限 的 计算 
和 存储 资源 下 是 折 中 的 策略 。 

另外 在 更 新 训练 模型 之 前 ， 本 文 预先 对 公共 核 系数 进行 更 
新 ， 对 每 个 预测 任务 进行 惩罚 ， 减 少 模型 训练 的 迭代 系数 ， 进 
而 降低 训练 时 间 。 在 第 jt1 次 迭代 时 ，0 的 更 新 公式 为 
61" =0;.pB ，B 其 中 为 一 个 0 到 1 之 间 的 随机 数 。 

算法 1 较为 详细 的 描述 了 该 模型 的 整体 过 程 。 

算法 1 多 任务 多 核 在 线 学 习 算 法 

输入 ”训练 样本 集 : D; = {4, 恕 ,…,Xy) ; 核 函 数 集合 : 

KK, ={,,…,ky} ;依次 给 每 个 任务 输入 一 个 样本 加 或 一 
组 样本 已 。 

输出 ”预测 结果 和 更 新 后 的 模型 。 

根据 新 来 的 样本 为 该 任务 计算 相应 的 核 矩阵 ; 

获得 已 有 的 该 任务 训练 模型 Model’ ; 

利用 模型 Mode/ 预测 结果 ; 

if 预测 值 一 真实 值 

接收 下 一 个 数据 


else 


| xo 更 新 训练 样本 集 的 最 后 一 行 和 一 列 
万 六 三 (到 为 有 wy E 
更 新 核 组 合 系数 9" =0):pP; 
根据 SVM 算法 ， 用 D/” 和 64” 为 该 任务 训练 新 模型 
Model/™ 。 
算法 1 对 本 文 提出 的 在 线 学 习 算 法 进行 了 整体 的 描述 ， 为 
了 处 理 不 断 到 来 的 流 数 据 ， 把 多 任务 多 核 学 习 框 架 和 在 线 技术 
进行 结合 生成 一 个 新 的 算法 ， 在 每 次 处 理 一 个 或 多 个 新 到 来 的 
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假设 有 Q 个 任务 ， 每 个 任务 有 k 个 d 维 的 训练 样本 ， 其 总 
有 N 个 训练 样本 (和 N > 大 ) ， 有 mm 个 核 函数 ， 对 于 本 文 所 提出 
的 在 线 学 习 算 法 MTMKOL 来 说 ， 每 次 迭代 的 时 间 复 杂 度 为 
O(Q-m) ， 当 样本 顺 次 出 现时 ， 时 间 复 杂 度 为 O(Q:m:N)。 

对 于 空间 复杂 度 来 说 ,算法 需要 一 直 保 存 一 个 训练 样本 集 ， 
其 大 小 为 O(Q:d-k) ， 同 时 要 保持 一 个 大 小 为 3 的 输入 数据 窗 
口 ， 其 所 需 的 空间 大 小 为 20(2.d.3) ， 所 以 本 算法 的 空间 复杂 
度 为 O(Q:m:k+Q.4d:3)=0O(Qmk). 

而 算法 ADA-MTLI7] 的 时 间 复 杂 度 为 O(Q4dN) ， 算 法 
BMKOL[13] 的 时 间 复 杂 度 为 O(QKN) ， 而 批 处 理 算法 
MTMKLI14] 的 时 间 复杂 度 为 O(QmNN) 。 

根据 以 上 分 析 可 知 ， 本 文 提 出 的 算法 与 其 他 两 个 在 线 学 习 
算法 的 时 间 复 杂 度 都 是 O( 入 ) ， 满 足 在 线 学 习 算法 时 间 复 杂 度 
的 要 求 。 

2.5 核 函数 的 选择 

对 于 多 核 学 习 问 题 来 说 ， 如 何 选 择 核 的 个 数 及 种 类 在 目前 
来 说 没有 一 个 统一 的 理论 选择 标准 ， 因 此 “ 核 函 数 选 择 ” 成 为 
支持 向 量 机 的 最 大 变数 。 本 文通 过 对 常用 的 核 函 数 进行 一 个 简 
单 的 分 析 ， 并 通过 实验 来 选择 本 文中 所 使 用 到 的 核 函 数 。 

常用 的 核 函 数 有 多 项 式 核 、 线 性 核 和 高 斯 核 。 本 文中 选取 
1 个 多 项 式 核 、1 个 线性 核 和 多 个 高 斯 核 , 其 中 高 斯 核 的 数量 的 
通过 实验 来 进行 确定 。 本 实验 使 用 同一 样本 集 robot 来 验证 ， 
其 中 输入 数据 窗口 数 为 3， 训 练 样本 集 的 大 小 为 总 样本 数 的 
10%。 表 1 展示 了 在 多 项 式 核 、 线 性 核 一 定 的 情况 下 ， 不 同 高 
斯 核 个 数 所 对 应 的 分 类 准确 率 以 及 所 需要 的 运行 时 间 ， 其 中 分 
类 准确 率 是 预测 正确 样本 数 占 总 样本 数 的 比重 ， 运 行 时 间 是 整 
个 数据 集 全 部 实验 完成 的 时 间 。 表 中 所 有 的 值 都 是 运行 10 次 
后 所 取 的 平均 值 。 

表 1 不 同 高 斯 核 个 数 所 对 应 分 类 及 运行 时 间 情 况 
多 项 式 ”线性 核 ”高 斯 核 ”准确 率 ”运行 时 间 


1 1 1 0.9778 3.9777 
1 1 3 0.9694 4.3414 
1 1 3 0.9778 4.0698 
1 1 7 0.9803 3.4041 
1 1 9 0.9736 4.1452 


从 表 1 可 以 看 出 ， 高 斯 核 个 数 的 不 同 ， 所 对 应 的 分 类 预测 
准确 率 和 运行 时 间 都 有 所 不 同 ， 其 中 效果 最 好 的 是 当 有 5 个 高 


数据 的 基础 上 ， 同 时 将 数据 样本 集 不 断 的 进行 更 新 ， 可 以 更 好 
的 得 到 各 个 任务 的 模型 ， 从 而 更 好 的 进行 结果 预测 。 
2.4 时 空 代价 分 析 

大 数据 流 的 数据 规模 大 ， 到 达 速 率 非 常 快 ， 要 求 数据 流 控 
掘 算 法 在 有 限 的 内 存 空 间 中 实时 处 理 ， 这 就 要 求 面 向 大 数据 流 
分 析 算 法 的 时 间 、 空 间 复 杂 度 低 。 由 于 本 文 在 输入 数据 时 保持 
了 一 个 输入 数据 窗口 ， 因 此 对 于 算法 的 实时 性 要 求 相 应 的 降低 
一 些 。 下 面 对 算法 的 时 空 复杂 度 做 了 一 个 简单 的 分 析 。 


斯 核 时 ， 其 运行 时 间 最 少 并 且 其 分 类 准确 率 也 达到 了 0.98， 结 
果 都 是 最 优 的 ， 因 此 本 文中 的 最 优 核 函 数组 合 的 选取 为 1 个 多 
项 式 核 、1 个 线性 核 和 5 个 高 斯 核 的 基本 核 函 数组 合 。 


3 ”实验 及 结果 分 析 


在 本 节 中 ， 本 文 分 析 比 较 的 方法 包括 本 文 提出 的 多 任务 多 
核 在 线 学 习 算 法 MTMKOL、 多 任务 加 速 在 线 学 习 算 法 WADA- 
MTL、 基 于 预算 量 的 多 核 在 线 学 习 算 法 I3BMKOL 和 多 任务 多 
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核 学 习 算法 4MTMKL， 其 中 表 2 给 出 对 比 实验 算法 的 相关 信 


据 集 [1] 中 


息 。 为 了 比较 本 文 提 
的 robot 和 letter 数据 身 
不 同 训练 集 大 小 、 
的 最 优 训练 集合 


比 讨论 不 同 算法 ， 验 证 


步 验 i 证 


ey 


出 算法 的 可 伸缩 性 能 ， 本 文 使 


不 同 输 入 数据 窗口 
小 以 及 最 优 输入 数据 窗口 大 小 ， 
了 本 文 算法 较 好 


来 进行 实验 , 通过 讨论 血 
大 小 的 使 / 


也 伸缩 性 能 。 


了 UCI 数 
法 中 
]， 得 到 本 算法 
且 通 过 对 


十 进 


F 本 文 算法 在 实际 数据 流 场景 下 的 使 用 


里 天 池 广 州 


云 


他 三 个 算法 在 选 定数 据 集 


所 对 应 的 算法 效率 情况 ,进而 对 算法 


1 场 客流 量 预测 0 的 数据 ， 
上 的 有 效 性 


的 处 到 


性 能 ， 本 文 使 用 阿 


， 同 时 得 到 不 同 任务 数量 
E 能 力 有 整体 的 认识 。 


验证 了 本 算法 和 其 


本 文 所 有 实验 均 在 MATLAB R2010b 上 运行 。 


著 


Chi 
乐 ， 等 : A: = 线 


低 。 其 中 效果 最 好 的 是 当 样 


A 


本 数 为 75 


时 , 它 对 应 的 分 类 准确 率 


和 运行 时 间 都 是 最 优 的 ， 


司 时 样本 数量 在 50-75 之 


间 时 ， 


率 和 运行 时 间 都 比较 好 ， 因 此 本 文 所 有 的 实验 设置 中 训练 样本 


其 原因 是 支持 向 量 机 本 身 对 


集 的 大 小 都 在 50-75 之 间 取 值 。 上 图 中 分 类 准 


确 率 高 达 0.99， 


不 断 对 模型 进行 更 新 与 


了 修正 


， 使 得 错误 


3.1.2 算法 输入 窗口 数 选 择 


本 文 的 算法 输入 要 求 保持 一 
作为 输入 数据 窗口 ， 其 中 


个 大 小 为 


空间 。 为 了 得 到 最 优 n 的 取 值 , 本 文选 择 多 


行 实验 ， 其 中 训练 样 


对 应 的 预测 结果 ， 图 中 所 


分 类 问题 处 理 效果 非常 好 ， 再 加 上 
率 大 


再 度 下 降 。 


Q.N.d 的 存储 空间 


hn 的 取 值 影响 算法 所 需要 占用 的 内 存 


任务 数据 集 robot 进 


本 个 数 为 75。 图 2 比较 了 不 同窗 口 大 小 所 


了 的 值 都 是 


分 别 进行 10 次 随机 实验 


准确 率 


表 2 实验 对 比 算法 的 基本 信息 
缩写 参考 文献 算法 描述 的 平均 值 。 
基于 正则 化 对 偶 平 均 方法 的 多 任务 在 线 学 
ADA-MTL 宇 
习 算法 ， 结 合 使 用 加 速 技术 提高 收敛 速度 
基于 预算 量 的 多 核 在 线 学 习 算法 ， 更 新 最 
BMKOL 13 
小 二 乘 支持 向 量 机 来 进行 预测 
MTMKL 14 多 任务 多 核 学习 算 法 


3.1 


UCI 数据 实验 分 析 
为 了 评估 本 文 在 线 学 习 算法 的 分 类 1 


集中 选取 了 2 个 多 任务 数据 集 来 进行 实验 ， 其 中 这 两 个 数据 和 


性 能 ,本文 从 UCI 数据 
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为 robot 和 letter，robot 有 6 个 任务 ， 每 个 任务 有 500 个 样本 ， 


并 且 每 个 任务 有 4 个 属性 ; 


letter 是 手写 体 单 词 


(8 个 任务 ) ， 


每 个 任务 有 500 个 样本 ， 


且 每 个 任 


务 有 16 个 属性 。 


本 小 节 使 


运行 时 间 (s) 


窗口 数 


图 2 不 同 输入 窗 


如 图 2 所 示 ， 随 着 输入 窗口 个 数 的 
先 保持 不 变 然后 又 突然 ] 


数 所 对 应 的 准确 率 和 运行 时 间 

曾 加 ， 分 类 预测 准确 率 
F 降 ， 同 时 实验 所 需要 的 运行 
少 然后 又 突然 增加 。 其 中 效果 最 好 的 是 窗口 数 为 3 时 ， 


时 间 先 减 
它 对 应 


用 分 类 准确 率 和 运行 时 间 2 个 指标 来 评估 算法 的 性 能 。 其 中 分 。 ”的 分 类 准确 率 和 运行 时 间 都 是 最 优 的 ， 因 此 本 文 所 有 的 实验 设 
类 准确 率 是 预测 正确 样本 数 占 总 样本 数 的 比重 ， 运 行 时 间 是 整 中 输入 窗口 都 为 3。 上 图 中 窗口 数 为 3 是 一 个 拐点 ， 其 原 攻 
个 数据 集 全 部 实验 完成 的 时 间 。 是 窗口 个 数 过 大 时 ， 容 易 包含 预测 错误 的 样本 ， 而 程序 需要 从 
3.1.1 算法 训练 样本 数 选择 当前 窗口 的 所 有 样本 中 找到 出 错 的 样本 再 进行 模型 的 更 新 ， 这 
本 文 的 算法 输入 要 求 保持 一 个 大 小 为 CG.Nd 的 存储 空间 ”个 过 程 会 产生 额外 的 时 间 开 销 ， 同 时 准确 率 也 会 下 降 。 
来 存放 训练 样本 集 , 其 中 N 的 取 值 直接 决定 算法 所 需要 占用 的 。” 3.1.3 算法 可 伸缩 性 分 析 
内 存 空间 。 为 了 得 到 最 优 N 的 取 值 ， 本 文选 择 多 任务 数据 集 为 了 评估 本 文 流 数 据 在 线 算法 的 可 伸缩 性 ， 本 文选 择 2 个 
robot 进行 实验 , 其 中 输入 数据 窗口 为 3 个 。 图 1 比较 了 不 同 训 多 任务 数据 集 robot 和 1letter 进行 实验 , 其 中 输入 窗口 个 数 为 3。 
练 样本 集 大 小 所 对 应 的 分 类 准确 率 以 及 所 需要 的 运行 时 间 ， 图 ”实验 设置 如 下 : 训练 样本 分 别 占 总 样本 不 同比 例 , 即 {5%, 10%， 
中 所 有 的 值 都 是 分 别 进 行 10 次 随机 实验 的 平均 值 。 15%，20%，25%，30%，35%，40%，45%，50%}+， 剩 余 的 样 
本 作为 评估 使 用 。 图 3 分 别 比较 了 各 种 不 同 设置 下 本 文 提 出 的 
算法 与 其 他 三 个 对 比 算法 的 预测 结果 。 
ee 图 3(a) 图 是 使 用 robot 数 据 集 进行 实验 的 , (b) 图 是 使 用 letter 
# 和 数据 集 进行 实验 。 从 图 中 可 以 得 到 以 下 一 些 结论 : 
本 a) 本 文 提出 的 算法 MTMKOL， 可 以 明显 的 看 出 其 分 类 的 
一 - 准确 率 一 直 大 于 其 他 三 个 算法 , 并 且 其 分 类 的 准确 率 也 非常 高 
0.965 这 是 因为 一 方面 本 算法 选用 的 支持 向 量 机 这 个 模型 就 是 一 个 非 


150 300 450 600 750 900 1050 1200 1350 1500 


训练 样本 数 


图 1 


如 图 


整体 上 在 不 断 的 提高 ， 同 时 实验 所 需要 的 运行 时 间 整 体 


1 所 示 ， 随 着 训练 样 


本 个 数 的 增加 ， 分 类 预测 准 


不 同 训练 样本 数 所 对 应 的 准确 率 和 运行 时 间 


确 率 
上 在 降 


常 善于 分 类 的 模型 ; 
时 性 的 要 求 相 对 减少 ， 
考虑 的 。 
所 得 到 的 准 


另 一 方面 本 算法 维 
因此 算法 主要 是 从 准 
且 本 文 所 提出 的 算 


确 率 值 差 值 很 小 ， 


持 了 一 个 输入 集 ， 


对 实 


确 率 这 一 方面 进行 


法 在 不 同 训 练 


样本 数量 的 设置 下 ， 


进一步 说 明了 该 算法 对 训练 集中 
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的 样本 数量 要 求 很 低 ， 具 有 很 好 地 可 伸缩 性 ， 可 以 满足 大 规模 。 不同 时间 的 客流 人 数 作为 任务 的 数据 特征 ， 具 体 信息 如 表 3 所 示 。 
数据 流 的 需求 ; 表 3 ”数据 特征 信息 表 

b) 算法 BLLSVM 的 分 类 准确 率 明 显 低 于 其 他 三 个 算法 的 编号 特征 名 称 
准确 率 , 其 原因 可 能 是 该 算法 对 支持 向 量 的 个 数 有 一 定 的 限制 ， 1 前 10 分 钟 人 数 
其 次 它 对 算法 实时 性 的 要 求 是 以 牺牲 一 部 分 的 准确 率 作 为 代价 2 前 20 分 钟 人 数 
的 ， 因 此 它 的 准确 率 稍 低 ; 3 ”前 1 天 该 时 间 点 人 数 

c) 算法 ADA-MTL 的 分 类 情况 不 是 很 稳定 , 其 原因 是 算法 4 ”前 2 天 该 时 间 点 人 数 
不 需要 保持 一 定数 量 的 历史 数据 ， 直 接 计 算 权 重 对 结果 会 有 一 
定 的 影响 ; 3.2.1 算法 回归 性 能 分 析 

d) 算法 conic MTL 是 一 个 批量 处 理 的 算法 , 根据 所 给 训练 为 了 评估 本 文 流 数 据 在 线 算法 在 回归 问题 中 的 性 能 ， 本 文 
样本 学 习 出 的 模型 用 于 对 新 数据 的 预测 ， 其 结果 会 随 着 训练 样 ”选取 数据 集中 的 前 100 个 任务 点 来 进行 实验 。 其 中 训练 集 选 取 
本 数 的 增加 而 更 加 准确 。 了 12 个 小 时 的 数据 ， 即 72 个 数据 样本 ， 测 试 集 为 剩余 的 1510 


个 数据 样本 。 图 4 比较 了 不 同 算法 在 该 数据 集 上 回归 分 析 的 预 


测 误差 RMSE， 其 中 预测 误差 RMSE 是 真实 值 与 预测 值 误 差 的 
人 平均 平方 根 。 
ps 二 6 * 
=/ | | 5r 和 
时 oo 392 592 792 训练 样 本 数 1392 1592 1792 1992 4 | J 
(a) robot 数据 集 山 
Sof | 
z | 
2 上 | 
| 
J 人 MTMKOL ADA-MTOL MTMKL BMKOL 
A ~ /fe 算法 名 称 
i wie 图 4 ” 选 定数 据 集 上 回归 分 析 的 RMSE 值 
训练 样本 数 如 图 4 所 示 ， 不 同 算法 所 对 应 的 RMSE 是 各 不 相同 的 。 其 
a 
(b) letter 数据 集 中 本 文 提出 的 算法 MTMKOL 的 RMSE 是 最 小 的 ， 主 要 原因 是 
a 1 法 的 准 次 上 不 
3 各 种 设置 下 算法 的 准确 率 比较 使 用 了 SVM 算法 , 它 可 以 使 用 很 少 的 数据 训练 出 较 好 的 模型 ， 
3.2 ”阿里 天 池 机 场 客流 量 流 数 据 实验 分 析 使 得 预测 误差 值 变 得 很 小 , 而 批 处 理 算法 Conic MTL 的 误差 值 
为 了 评估 本 文 在 线 学 习 算 法 在 实际 应 用 中 的 回归 性 能 ， 将 。 ”是 最 大 的 ， 其 原因 是 算法 只 训练 了 一 次 模型 就 进行 测试 ， 但 是 


使 用 机 场 客 流量 的 时 空 分 布 预测 上 9 数据 来 进行 实验 ,根据 其 在 该 模型 并 没有 很 好 的 匹配 数据 特征 ,从 而 导致 了 较 大 的 误差 值 ; 
机 场 客 流量 预测 中 的 预测 误差 RMSE(root mean square error) 与 其 他 两 个 算法 的 误差 值 也 比较 大 一 点 ， 原 因 则 是 给 定 训 练 样本 


数据 吞吐 量 来 衡量 模型 与 算法 性 能 。 从 而 验证 MIMKOL 在 机 l 较 小 ， 刚 开始 模型 并 不 能 很 好 的 匹配 数据 ， 经 过 不 断 的 更 新 
场 客流 量 预测 中 的 特性 与 优势 。 模型 才 使 得 误差 值 逐 渐 减 小 。 

数据 集 是 来 自 天 池 竞 赛 机 场 客 流量 的 时 空 分 布 预测 的 初赛 。 3.2.2 算法 不 同 任务 数 回 归 分 析 
数据 集 ， 其 提供 海量 机 场 WIFI 数据 及 安检 登 机 值 机 数据 ， 以 为 了 评估 本 文 流 数 据 在 线 算法 在 不 同 任务 数量 中 的 回归 性 


对 白云 机 场 航 站 楼 客流 量 分 析 与 预测 。 初 始 数 据 集 中 的 时 间 数 能， 选取 数据 集中 所 有 的 749 个 任务 点 进行 实验 。 实 验 设 置 如 
据 都 是 精确 到 秒 ,将 其 进一步 简化 , 以 10 min 作为 一 个 时 间 片 ， 下 : 任务 数量 为 {2,100,200,300,400,500,600,749}, 分 别 验证 不 同 
将 数据 重新 进行 汇总 保存 。 将 每 一 个 WIFI 点 的 客流 量 预测 看 ”任务 量 的 情况 下 算法 预测 误差 值 以 及 数据 吞吐 量 ， 其 中 训练 集 
做 是 一 个 任务 ， 则 共有 749 个 任务 。 对 于 每 一 个 任务 来 说 ， 机 ”选取 了 12 个 小 时 的 数据 ， 即 72 个 数据 样本 ， 测 试 集 为 剩余 的 
场 每 天 的 排 班 表 基本 稳定 ， 用 户 在 机 场 内 的 行走 模式 也 基本 稳 1510 个 数据 样本 。 图 5 比较 了 不 同 任务 个 数 在 该 数据 集 上 回归 
定 ， 并 且 时 间 序 列 具 有 一 定 程 度 的 连续 性 ， 某 一 时 间 点 的 情况 分析 的 预测 误差 RMSE 和 数据 吞吐 量 ， 其 中 数据 吞吐 量 是 每 
会 一 定 程 度 延 续 此 前 几 小 时 的 情况 和 前 2 天 的 情况 ， 因 此 使 用 钟 所 能 处 理 的 数据 量 。 
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从 图 5 中 可 以 观察 到 下 列 现象 : 


多 任务 学 习 方式 比 各 个 任务 单独 学 习 方 式 的 
且 随 着 任务 数 的 增加 ， 相 对 应 的 RMSE 和 吞吐 量 


要 好 许多 ， 
有 所 优化 ; 


真实 值 ; 


I 


归 预 测 性 能 


地 


任务 个 数 越 多 ， 其 相应 的 预测 误差 值 越 小， 预测 值 更 接近 


随 着 任务 个 数 的 增多 


,其 每 秒 钟 可 以 处 理 的 数据 不 断 增 加 ， 


算法 的 吞吐 量 最 高 可 达到 每 秒 320 个 数据 样本 ， 完 全 满足 了 算 


的 要 求 。 


法 实时 性 
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本 文 提出 一 种 新 颖 的 面向 数据 流 的 多 任 
首先 通过 实验 对 最 优 核 函数 组 合 进行 选取 ， 
数 的 选择 没有 一 个 统一 的 理论 标准 


得 预测 准确 率 与 所 耗费 时 间 都 能 得 到 较 好 的 
的 在 线 算 法 和 
得 更 好 的 效果 ; 


比 处 理 算法 进行 比较 ， 本 算法 
然后 ， 已 有 的 在 线 学习 算 法 


0 
700 800 


能 与 任务 个 数 的 关系 


务 多 核 在 线 算法 ， 
于 现 如 今 对 核 函 


， 因 此 本 文 根 据 已 有 的 经 验 
进行 实验 选择 ， 其 次 通过 实验 对 输入 样本 集 大 小 进行 选取 ， 使 


结果 ， 同 时 与 现 有 
在 各 种 实验 中 均 取 
都 是 直接 对 新 到 来 


的 数据 进行 处 理 ， 算 法 
的 算法 则 是 为 新 到 来 的 数据 保持 
地 避免 了 数据 的 丢失 以 及 降低 对 算法 的 实时 


需要 很 高 的 实时 处 理 能 力 ， 
一 个 数据 输 


而 本 文 提出 
入 窗口 ， 可 以 很 好 
性 要 求 ， 实 验 结果 


表明 这 样 的 设置 是 非常 有 意义 的 ， 最 后 对 真 


据 进 行 分 析 预 测 ， 结 果 得 到 预期 效果 。 
本 算法 比较 关注 对 流 数据 的 处 理 ， 在 核 


实 的 机 场 客 流量 数 


系数 的 更 新 算法 中 


处 理 比 较 简单 , 本文 将 在 接 下 来 的 工作 中 仔 


研究 该 更 新 算法 ， 


使 得 模型 的 更 新 更 为 简单 快速 。 
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